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主题 与 区 域 视角 下 我 国 城市 政府 开放 数据 利用 
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摘要 : [目的 /意义 ] 从 数据 层面 分 析 我 国 城市 政府 开放 数据 在 主题 视角 和 区 域 视角 下 的 利用 现状 ,探究 开 
放 数 据 关 注 程 度 与 利用 程度 之 间 的 线性 关系 ,以 提高 我 国政 府 开 放 数 据 的 使 用 效率 。 [ 方法“ 过程 ] 以 哈尔滨 、 
济南 、 上 海 、 武 汉 、 广 州 和 贵阳 6 地 为 例 , 对 开放 数据 的 浏览 率 、 下 载 率 等 多 个 指标 进行 统计 比较 分 析 、 聚 类 分 析 
揭示 我 国 城市 开放 数据 在 主题 与 区 域 视 角 下 的 利用 现状 ,并 探讨 浏览 率 与 下 载 率 之 间 的 线性 关 
。 [结果 /结论 ] 我 国 城市 政府 开放 数据 的 利用 具有 以 下 特征 :在 整体 上 开放 数据 浏览 率 与 下 载 率 呈 弱 相关 。 
1 教育 科技 、 民 生 服 务 、 经 济 工商 等 与 社会 民生 领域 相关 的 主题 利用 程度 高 ,其 浏览 率 与 下 载 率 呈 
纺 相 关 ;开放 数据 的 整体 特征 与 部 分 特征 具有 不 一 致 性 。 在 区 域 视角 下 ,济南 、 上 海 的 浏览 率 和 下 载 率 呈正 相 
其 中 上 海 对 开放 数据 的 利用 排名 首位 ,济南 则 排 在 末 位 ,贵阳 开放 数据 浏览 率 与 下 载 率 都 较 高 ,但 二 者 呈 弱 
oy 开放 数据 整体 特征 与 部 分 特征 大 体 上 具有 一 致 性 。 
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为 政府 数据 的 开放 水 平 对 政府 数据 的 服务 效果 有 直接 


,同时 ,开放 数据 中 存在 实施 障碍 和 使 用 障 

政府 开放 数据 是 指 由 政府 .政府 委托 和 控制 的 实 he ant ne 

迪生 的 能 被 任何 人 自由 地 利用 ,再 利用 和 再 分 配 的 。” 碍 “随后 又 发 现 开放 数据 在 商业 利用 中 存在 可 访问 
| 性 和 交互 性 等 陪 其 风 

ne pe ,在 关上 入 建 测 


府 条 学 术 界 对 其 高 度 重 视 。 据 2016 年 4 月 发 布 的 “ 开 ss Wd 
放 数 握 晴 雨 表 ” 全 球 报 告 ( Open Data Barometer ) 显示 ， 是 开放 数据 的 利用 化 ee 在 理 Y 仑 上 ， 从 评估 


全 球 已 有 114 个 国家 加 入 了 这 一 行列 吕 我 国 以 2012 各 地 政府 开放 数据 的 动机 中 意识 到 政府 开放 数据 的 
年 “上 海 市 政府 数据 服务 网 "的 上 线 试 运行 为 开放 数 。 潜在 价值 应 被 有 效 的 利用 模式 激活 中 ,在 实践 中 ,相关 


上 | 


据 的 标志 ,截止 2017 年 11 月 ,全 国共 有 23 个 省 .市 或 概念 模型 ”和 可 视 化 方法 '" 被 运用 于 挖掘 、 理 解 并 传 
区 政府 建立 了 地 方 性 政府 数据 开放 平台 (港澳 台地 区 ” 递 开 放 数 据 的 价值 。 
除外 )。 政 府 开放 数据 的 利用 是 指 已 开放 的 数据 资源 国内 学 界 对 开放 数据 利用 的 研究 主要 集中 在 3 个 
满足 人 们 需求 和 利用 的 情况 与 程度 ,其 本 质 是 资源 的 。 方面 :第 一 是 对 开放 数据 利用 的 评价 研究 。 针 对 政府 
有 效 配 置 和 使 用 。 当 前 国内 外 对 政府 开放 数据 利用 现 。 数据 开放 平台 ,提出 相应 的 评估 框架 、 指 标 和 方法 ”， 
状 的 研究 比较 宏观 ,并 取得 了 一 定 的 成 果 。 从 用 户 利用 的 角度 评估 了 时 下 我 国 已 有 的 政府 数据 开 
国外 学 界 对 政府 开放 数据 利用 的 研究 主要 集中 在 “，” 放 平 台 "; ,又 根据 服务 绩效 将 广东 和 北京 .上 海 等 地 
两 个 方面 :第 一 是 开放 数据 的 利用 障碍 研究 。 起 初 认 ”的 若干 平台 划分 成 了 三 个 级 别 5 ;针对 开放 数据 , 主 
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要 选用 数据 集 访问 量 下载 量 、 申 请 情况 .下 载 量 与 
浏览 量 的 比值 ,以 及 平均 浏览 量 "” 等 指标 衡量 政府 开 
放 数 据 的 利用 效果 。 第 二 是 对 开放 数据 的 保障 机 制 研 
究 。 政 府 开放 数据 的 高 效 利用 离 不 开 法 律 ,技术 数据 
共享 和 用 户 参与 的 充分 保障 "9 ,同时 开放 数据 的 完整 
性 ,准确 性 、 及 时 性 和 国家 相关 政策 也 会 影响 数据 的 利 
用 '"!。 第 三 是 开放 数据 的 利用 方式 研究 。 从 宏观 上 
探究 影响 政府 开放 数据 利用 的 因素 ,同时 从 微观 上 
将 API 接口 和 APP 程序 开发 等 利用 方式 纳入 数据 利 
用 范畴 "” ,通过 梳理 国内 外 政府 数据 开放 利用 方式 ， 
提出 了 开放 数据 的 价值 的 提高 与 数据 的 利用 率 成 正比 
的 观点 。 

综 上 ,国内 外 研究 重 在 从 宏观 上 探究 数据 开放 平 
会 的 建设 情况 , 鲜 有 从 微观 视角 前 析 开 放 数 据 的 利用 
现状 。 政 府 开放 数据 的 最 终 目的 是 促进 其 使 用 与 开 
发 汶 了 帮助 政府 最 大 限度 满足 公众 数据 需求 ,了 解 我 
上 城市 政府 之 间 数 据 利 用 的 差距 ,以 数据 本 身 作 为 切 
GE 术 ,分别 从 主题 视角 和 区 域 视角 出 发 ,运用 数据 浏览 
性 ;下 载 率 等 指标 对 比分 析 开 放 数据 的 利用 程度 ,通过 
聚 棋 分析 和 相关 性 分 析 把 握 不 同 主题 .不 同城 市 政府 

数据 的 利用 现状 ,促进 我 国政 府 开放 数据 工作 的 


下 于 我 国政 府 数据 开放 平台 大 多 数 是 以 “data 
加 En" 为 的 ,因此 ,本 文 以 “data. gov. cn” 为 域名 
进行 搜索 ,截止 2017 年 11 月 29 日 ,我 国 已 有 23 个 城 
市 建立 了 开放 数据 平台 ,从 现 有 平台 来 看 ,开放 数据 主 


要 集中 在 经 济 .交通 教育、 环保 等 社会 生活 领域 的 各 
方面 。 但 是 ,各 城市 平台 开放 的 数据 主题 在 数量 和 名 
称 上 有 较 大 差异 ,存在 同类 数据 在 不 同 平台 名 称 不 同 ， 
以 及 不 同 主题 所 含 的 数据 同属 一 个 大 类 的 情况 。 
此 ,本 文 首先 梳理 现 有 23 个 数据 开放 平台 的 主题 分 类 
情况 ,为 了 提高 研究 的 集中 性 和 效率 ,将 现 有 平台 全 部 
数据 集 的 297 个 资源 主题 整理 归纳 为 经 济 工商 、 财 税 
金融 等 19 个 大 类 ,并 统计 了 各 大 类 中 子 主题 的 分 布 情 
况 ,具体 分 布 情况 见 图 
2.1.1 主题 视角 下 研究 样本 的 选取 从 我 国政 府 开 
放 数 据 主题 分 类 统计 中 可 以 看 出 , 现 有 开放 数据 主 
题 的 分 布 呈 集中 与 分 散 的 状态 。 在 开放 数据 的 数量 
上 多 文体 休闲 ”类 共 包 含 29 个 子 主题 ,是 所 含 类 目 
数量 最 多 的 主题 大 类 ,类 目 数量 最 少 的 是 “宗教 信 
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1 我 国政 府 开放 数据 主题 分 类 统计 


仰 ” 和 "司法 服务 "大 类 ,它们 都 分 别 包含 5 个 子 主 
题 ;在 开放 领域 上 ,当前 我 国 地 方 政 府 开 放 数 据 重 点 
集中 在 与 教育 、. 就 业 、 医 疗 等 相关 的 民生 领域 (文体 
休闲 社保 就 业 、 交 通 出 行 .教育 科技 、 医 疗 健康 等 ) 、 
生态 领域 (能 源 环 境 ) 和 社会 治理 领域 等 (政府 机 构 
与 社会 团体 、 公 共 安 全 等 )。 主 题 分 类 表明 各 地 方 政 
府 对 开放 数据 的 分 类 既 具 有 一 定 的 共性 ,又 带 有 某 
些 个 性 。 

依据 主题 分 类 共性 特征 ( 指 某 些 主题 同时 出 现在 
平台 上 ) 和 区 域 样本 (区 域 样本 的 选取 见 2.1.2) 的 分 
布 特点 及 其 在 各 平台 的 覆盖 面 ,剔除 “其 他 类 ”后 , 选 
取 ”* 文 体 休 闲 ”“ 社保 就 业 ”“ 经 济 工商 ”能 源 环境 ” 
“交通 出 行 “ 民 生 服 务 “ 教 育 科 技 “ 政 府 机 构 与 社 
会 团体 “公共 安全 ”10 个 主要 大 类 作为 主题 视角 的 初 
2.1.2 区 域 视角 下 研究 样本 的 选取 ”开放 数据 的 城 
市 在 行政 级 别 和 地 域 上 具有 广泛 的 代表 性 。 在 行政 级 
别 上 ,这 23 个 城市 包含 省 级 城市 . 副 省 级 城市 .地 级 
市 .县 级 市 等 多 种 行政 级 别 ;在 地 域 上 ,它们 分 散 于 北 
京 、 上 海 湖北 广东 等 多 个 直辖 市 或 省 份 。 

由 于 行政 级 别 存在 差异 ,各 开放 平台 开放 数据 的 
侧重 点 与 进程 差别 较 大 ,不 适合 做 全 样本 分 析 。 因 此 ， 
经 过 多 次 讨论 ,本 文 拟 选 取 济 南 、 上 海 .武汉 广州 、 哈 
尔 滨 和 贵阳 6 个 城市 为 研究 样本 。 这 6 个 城市 的 可 比 
性 体现 在 两 个 方面 :一 是 除了 武汉 在 “社保 就 业 ” 和 贵 
阳 在 “民生 服务 ”主题 中 尚未 涉及 以 外 ,其 余 8 个 主题 
大 类 均 能 与 6 个 研究 样本 相对 应 ;二 是 这 6 个 样本 在 
行政 级 别 上 均 为 直辖 市 或 省 会 城市 , 且 它 们 在 地 理 位 
置 上 均 分 属 不 同 区 域 ,因此 这 6 个 城市 作为 区 域 样本 
具有 一 定 代表 性 和 意义 。 本 文 结合 主题 视角 和 区 域 视 
角 对 研究 样本 的 确定 ,选取 6 个 平台 中 的 63 个子 主 
题 ,将 其 归纳 到 10 大 主题 大 类 中 ,最 终 确 定 的 研究 样 
本 如 表 1 所 示 : 


表 1 我 国 省 会 城市 与 直辖 市 政府 数据 开放 平台 情况 


六。 文体 休闲 。 社保 就 业 经济 工商 。 能 源 环境 交通 出 行 民生 服务 “医疗 健康 教育 科技 “人 公共 安全 总 计 
二 到 所 
济南 市 政府 数据 开放 平台 (文化 .体育 ) ”扶贫 救灾 。 经 济 管 理 。 (城乡 建设 、 (工业 、 (民政 、 卫生 健康 (科技 、 综合 政务 (政法 、 13 

(旅游 、 (劳动 、 环境 保护 ) 交通 ) 社区 ) 教育) 监察) 
服务 业 ) 。 人事) (国土 资源 、 
能 源 ) 

上 海 市 政府 数据 服务 网 文化 休闲 。 社会 发 展 。 经 济 建设 。 资源 环境 。 道路 交通 “民生 服务 “卫生 健康 “教育 科技 “机 构 团体 公共 安全 10 
武汉 市 政务 公开 数据 服务 网 “文化 娱乐 缺 经 济 发 展 。 能 源 环 境 。 交通 服务 “公共 服务 “医疗 卫生 ”教育 科技 “政府 机 构 “公共 安全 9 
广州 市 政府 数据 开放 平台 文体 娱乐 。 社会 发 展 。 经 济 发 展 。 资源 环境 道路 交通 “民生 服务 “健康 卫生 ”教育 科技 “机 构 团体 “公共 安全 1 

劳动 人 事 
哈尔滨 市 政府 数据 开放 平台 “文体 休闲 。 社会 发 展 。 经 济 建设 。 资源 环境 。 道路 交通 “民生 服务 “卫生 健康 “教育 科技 “机 构 团体 公共 安全 10 
贵阳 市 政府 数据 开放 平台 ”文体 休闲 。 社会 发 展 。 经 济 建设 。 生态 文明 。 交通 运输 。“” 扎 。 卫生 健康 “教育 科技 “政府 机 构 “公共 安全 10 


总 计 7 8 6 yt 


本 
: 据 统计 ,以 上 6 个 政府 数据 开放 平台 一 共有 86 个 
“二 题 ,本文 研究 涉及 的 子 主题 有 63 个 ,利用 八 爪 鱼 


测 


| 
数据 采集 器 采集 与 人 工 观察 的 方式 分 平台 抓 取 以 上 


i 


6 多 尔 子 主题 数据 集 的 相关 信息 ,以 供 后 续 实验 使 用 。 
扩 在 数据 的 采集 礁 止 日 期 为 2017 年 12 月 12 日 。 

3 开放 数据 利用 现状 的 参数 确定 

当前 研究 大 多 从 浏览 量 和 下 载 量 等 宏观 角度 衡量 


开战 数据 的 利用 效果 ,学 者 们 认为 数据 的 浏览 量 和 下 
城 记 会 影响 用 户 对 数据 的 关注 和 利用 效果 '” ,并 通过 
计算 下 载 量 与 浏览 量 的 比值 来 比较 北京 和 上 海 开放 数 
据 网 利用 效果 ') ,有 的 还 选取 访问 量 和 下 载 量 来 衡量 


中 我 国 部 分 地 方 政 府 数据 的 利用 状况 。 但 是 , 济 


览 浴 和 下 开 率 等 指标 更 能 反映 局 部 数据 在 整体 数据 中 


的 点 比 情况 ,进而 反映 用 户 对 某 主题 或 某 区 域 开放 数 
据 的 关注 程度 和 利用 程度 ,因此 本 研究 选取 开放 数据 
的 浏览 率 、 下 载 率 等 指标 作为 测算 参数 ,具体 参数 设计 
如 下 。 

设 表 1 中 主题 视角 下 的 10 大 类 样本 全 部 主题 的 
开放 数据 集 的 总 量 为 NT, 浏 览 总 量 为 BT, 下 载 总 量 为 
DT。 具 体 公 式 如 (1) - (3) 所 示 : 


10 


NT = Sn (1) 
10 

BT = > 0t. (2) 
i=l 

DT = 了 dl (3) 
二 再 


其 中 ,每 一 个 大 类 主题 都 包括 若干 个 子 主题 。i 代 
表 10 个 主题 大 类 (i=1,2,…,10) ;nt 表示 第 i 主题 大 
类 下 开放 数据 集 的 数量 ;bt; 代表 第 i 主题 大 类 开放 数 
据 的 浏览 量 ;di; 代表 第 i 主题 大 类 开放 数据 的 下 载 量 。 
同 理 , 设 表 1 中 6 个 城市 全 部 主题 的 开放 数据 集 


总 量 为 NC, 浏览 总 量 为 BC, 下 载 总 量 为 DC。 具体 公 
式 如 (4) - (6) 所 示 : 


6 

NC = Se (4) 
6 

BC= be (5) 
6 

DC = Sd (6) 


其 中 ,i 代表 6 个 城市 (i =1,2,…,6) ,nc; 表示 第 i 
城市 下 开放 数据 集 的 数量 ,bc; 代表 第 i 城市 开放 数据 
的 浏览 量 ,dc; 代表 第 i 城市 开放 数据 的 下 载 量 。 

在 此 基础 上 ,首先 统计 分 析 主 题 和 区 域 视角 下 开 
放 数 据 的 浏览 率 和 下 载 率 ,以 揭示 用 户 对 开放 数据 的 
关注 情况 和 利用 程度 ,再 对 浏览 率 与 下 载 率 做 回归 分 
析 , 以 找 出 二 者 之 间 的 相关 性 ,帮助 实现 政府 数据 的 价 
值 和 目的 。 依 据 上 述 公 式 , 其 他 测算 公式 及 方法 见 表 2。 


3 ”数据 分 析 


3.1 主题 视角 下 政府 开放 数据 的 利用 现状 

为 了 揭示 不 同 主题 视角 下 开放 数据 的 利用 现状 ， 
首先 统计 各 主题 数据 的 浏览 量 (b,) 、 下 载 量 (di,) . 单 
一 样本 开放 数据 平均 浏览 率 ( bi,/ni;) 和 平均 下 载 率 
( di/nt;) ,如 图 2、 图 3 所 示 , 同 时 结合 开放 数据 浏览 率 
(bi/BT) 和 下 载 率 ( di;/DT) 的 对 比分 析 来 比较 各 主题 
数据 的 利用 现状 。 
3.1.1 主题 视角 下 开放 数据 浏览 率 ”浏览 率 能 直观 
反映 用 户 对 某 一 主题 数据 的 关注 情况 ,首先 运 用 R 绘 
制 各 主题 大 类 开放 数据 的 浏览 率 折 线 图 和 浏览 率 散 点 
,如 图 4 所 示 。 其 中 X 轴 代 表 10 个 主题 大 类 ,也 即 
ti,(i=1,2,…,10)。 主题 1 -10 分 别 代表 :文体 休闲 、 
经 济 工商 交通 出 行医 疗 健康 .政府 机 构 与 社会 团体 、 
社保 就 业 ,能源 环境 .民生 服务 教育 科技 和 公共 安全 。 


67 


团 浊 情报 三 作 


第 62 卷 第 20 期 2018 年 10 月 


ChinaXiv 合 作 期 刊 


表 2 开放 数据 利用 现状 测算 指标 参数 及 方法 


、 本 i 最 单一 样本 开放 数据 ”单一 样本 开放 数据 ”整体 样本 开放 数据 ” 整体 样本 开放 数据 
测算 指标 。 开放 数据 浏览 率 。 开放 数据 下 载 率 i 0 ea is 
Ne Dt; dt; bt; dt; br; br; dit: dit; 
主题 视角 Br DT A 二 me Zi! A mr 2! 
区 域 视角 和 和 2 Se 5 
公共 安全 mss 
教育 科技 EE 
民生 服务 my 
能 源 环境 ms 
冰 社保 就 业 wm 
旧 政府 机 构 与 社会 团体 mm 
州 医疗 健康 mm 
文通 出行 Ee 
经 济 工 商 
文体 休闲 EGG 
0 200000 400000 600000 800000 1000000 1200000 
| 浏览 量 日 下载 量 (次 ) 
之 RE 
OO) 2 主题 视角 下 开放 数据 的 浏览 量 和 下 载 量 
CN 
LO i 单一 习 本 开放 数据 平均 浏览 守 a 单一 样本 开放 数据 平均 下 和 人 人 开放 
单一 样本 开放 数据 平均 下 载 率 整体 样本 开放 数据 平均 下 载 率 
© 1 200 0.20 
ee 
| 
CD 0.15 
GN 
©O 
A 0.10 
之 
0.05 
SC 
a 
© 文体 休闲 经济 工商 交通 出 行 医疗 健康 “ 苏 生 JI 构 与 社会 团 林 ” 社 体 就 业 。 能 源 环 境 民生 服务 。 教育 科技 公共 安全 
3 ”主题 视角 下 单一 (整体 ) 样 本 开放 数据 的 平均 浏览 (下 载 ) 率 
9 从 图 2 可 知 ,浏览 量 排 在 前 三 位 的 是 经 济 工商 
| | y A 2 一 y 
S ”上 (937 657 次 ) 交通 出 行 (420 002 次 ) 和 民生 服务 
= | o (327 778 次 ) ,其 中 交通 出 行 类 数据 的 单一 样本 平均 浏 
污 和 Lar 览 率 也 是 最 高 的 ,由 此 可 知 ,经 济 工商 和 交通 出 行 等 主 
加 J 或 i A A 
0 , - 题 的 数据 备 受用 户 关注 ;然而 结合 图 3 可 知 ,仍然 有 部 
妆 |。 ;| 。 半 分 主题 在 该 指标 的 值 明显 低 于 平均 值 ,如 政府 机 构 与 
国 i 可 和 和 受 社会 团体 主题 数据 的 平均 浏览 率 均 不 足 300 次 /条 ,这 
|p 测 ER 
- 表明 各 主题 数据 被 关注 的 程度 存在 差异 性 。 而 图 4 则 
a 上 三 Si 四 一- > S I [a 
sa ss 显示 浏览 率 最 高 的 主题 经 济 工商 ( 约 为 0.267) 是 最 低 
| | | | | 的 公共 安全 ( 约 为 0.054) 的 4.94 信 , 且 这 10 类 数据 中 
me ee 仅 有 经 济 工商 和 交通 出 行 两 类 数据 的 浏览 率 高 于 平均 
4 ”主题 视角 下 开放 数据 浏览 率 折线 图 和 散 点 图 此 外 ,对 比 图 4 中 的 开放 数据 的 浏览 率 折线 图 和 
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散 点 图 可 知 ,经 济 工商 类 数据 的 浏览 率 虽然 最 高 ,但 由 
其 散 点 图 的 分 布 可 知 ,并 非 其 开放 任意 一 条 数据 的 济 
览 率 都 很 高 (大 多 数落 在 0 -0.02 以 内 ) 。 而 公共 安全 
类 的 数据 却 恰 好 相反 ,虽然 该 数据 集 的 整体 浏览 率 最 


低 ,但 其 开放 数据 浏览 


览 率 的 跨度 较 大 ,大 多 在 0.1- 


0.25 之 间 ,这 表明 各 主题 开放 数据 整体 与 部 分 的 特征 


并 不 具有 一 致 性 。 
3.1.2 主题 视角 下 7 


开放 数据 下 载 率 ”下 载 率 是 对 浏 


览 率 的 进一步 说 明 与 深化 , 它 在 很 大 程度 上 能 反映 出 


用 户 对 某 一 数据 的 利 


用 情况 。 同 浏览 率 一 样 ,图 5 所 


示 的 是 各 主题 大 类 开放 数据 的 浏览 率 折线 图 和 散 点 
图 ,主题 1 -10 的 含义 与 3.1.2 中 图 4 相同。 


口 下 载 率 
一 整体 下 载 率 


202308.00529v1 


aXiv 


整体 下 载 率 (次 /条 ) 


CC 图 S 主题 视角 下 开放 数据 浏览 率 折线 图 和 散 点 图 
-于 由 图 5 可 知 ,用 户 对 经 济 工商 .教育 科技 .社保 就 


业 和 交通 出 行 类 数据 的 利用 程度 较 深 ,体现 在 2 个 方 
面 。 第 一 ,开放 数据 下 载 率 高 于 平均 值 的 有 4 个 主题 ， 
也 即 经 济 工商 ( 约 0.223 ) .教育 科技 ( 约 0. 133) 社保 
就 业 (0.103 ) 和 交通 出 行 ( 约 0.1) ,同时 ,除去 社保 就 
业 以 外 ,其 余 3 个 主题 的 整体 开放 数据 平均 浏览 率 也 
均 高 于 相应 平均 值 ,这 间接 表现 出 用 户 对 此 类 数据 利 
用 的 真实 性 ;第 二 ,经 济 工商 等 4 个 主题 数据 的 下 载 率 
之 和 约 为 0.56 , 占 所 有 主题 开放 数据 下 载 总 量 的 一 半 
以 上 ,表明 它们 被 利用 的 程度 较 高 ,同时 也 反映 出 其 余 
几 类 数据 的 利用 程度 有 待 提高 。 

此 外 ,结合 下 载 率 散 点 图 可 知 ,其 余 各 主题 下载 率 
分 布 不 均衡 ,首先 ,以 公共 安全 为 例 ,其 下 载 率 散 点 图 
的 跨度 虽然 较 大 ,但 总 体 上 该 主题 的 下 载 率 排 在 末尾 ; 
其 次 ,包括 经 济 工商 在 内 的 大 部 分 主题 整体 开放 数据 
的 平均 浏览 率 都 不 高 ,其 值 大 多 落 在 0 -0.05 以 内 。 
3.1.3 主题 视角 下 开放 数据 的 利用 现状 ”为 了 深入 
揭示 各 主题 开放 数据 的 利用 现状 与 亲 玻 关系 ,对 10 个 
主题 大 类 做 聚 类 分 析 。 

聚 类 分 析 是 指 在 事先 不 规定 分 组 规则 的 情况 下 ， 
将 数据 按 其 自身 特征 划分 成 不 同 的 群 组 ,各 和 群 组 内 部 
数据 差距 尽 可 能 的 小 ,而 各 群 组 数据 之 间 的 差距 尽 可 
能 的 大 ” 。 首 先 选择 聚 类 指标 , 由 于 单一 样本 和 整体 
样本 的 开放 数据 平均 浏览 率 ( 下 载 率 ) 的 变化 方向 一 
致 且 一 一 对 应 ,前 者 是 测算 后 者 的 基础 ,因此 聚 类 分 析 
主要 参考 开放 数据 浏览 率 、 下 载 率 和 整体 样本 开放 数 
据 平 均 浏 览 率 (下 载 率 )4 个 指标 的 相关 情况 。 与 此 同 
时 ,选用 层次 聚 类 法 ,其 中 个 体 距 离 采用 平方 欧式 距离 ， 
类 间距 离 采 用 Ward 联接 ,最 终 聚 类 结果 如 图 6 所 示 : 


使 用 Ward 联接 的 树 状 医 
重新 调整 距离 聚 类 合并 
0 5 0 15 20 25 
文体 休闲 1 
社保 就 业 6 
教育 科技 9 
交通 出 行 3 
医疗 健康 4 
经 济 工商 2 
能 源 环境 7 
民生 服务 a 
公共 安全 10 
政府 机 构 与 社会 团体 5 
(a) 树 状 医 


主题 视角 下 开放 数据 来 类 分 析 碎 石 图 
10 
9 0 
8 0 
7 0 
并 6 0 
Ks 0 
4 © 
3 0 
2 e 
1 © 
0 
-5 0 5 10 15 20 好 30 35 40 
国 碎 厂 


图 6 主题 视角 下 开放 数据 聚 类 分 析 的 树 状 图 和 碎 石 图 
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为 了 更 好 地 划分 聚 类 数目 ,绘制 了 主题 视角 下 开 
放 数 据 聚 类 的 碎 石 图 ,如 图 6(b) 所 示 , 随 着 类 的 不 断 
凝聚 和 类 目 数量 的 不 断 减 少 ,各 类 之 间 的 距离 迅速 增 
大 , 碎 石 图 逐渐 趋 于 平坦 。 观 察 碎 石 图 可 知 , 当 聚 成 4 
类 之 前 ,各 类 之 间 的 距离 较 小 , 当 聚 成 4 类 之 后 ,各 类 
之 间 的 距离 较 大 ,由 此 可 知 ,4 类 就 是 该 碎 石 图 的 “ 拐 
点 ”, 因 此 聚 成 4 类 或 3 类 较 好 。 经 过 综合 考虑 ,本 研 
究 最 终 将 10 大 主题 聚 为 4 类 , 见 图 6(a) 。 


具体 而 言 , 第 一 类 是 “文体 休闲 ”社保 就 业 ” 和 
“教育 科技 ”, 仅 经 过 三 步 就 聚 成 一 类 , 其 系数 分 别 为 


0.128 和 1.465。 社 保 就 业 和 教育 科技 类 的 数据 在 整 
体 样 本 开放 数据 平均 浏览 率 等 3 项 指标 均 超 过 相应 平 
均值 ,其 余 各 项 指标 均 排名 较 前 ,方差 与 标准 差 都 较 
小 一 这 表明 与 民生 相关 的 数据 利用 效率 较 高 ,教育 科 
保 就 业 和 文体 休闲 是 用 户 最 为 关心 的 日 常 问题 
这 ,与 用 户 的 距离 最 近 , 也 进一步 说 明 用 户 需 求 是 数 
i 
二 类 是 “经 济 工商 ”"。 经 济 工 商 在 浏览 率 、 下 载 
ss。 
据 殉 高 的 关注 度 与 利用 率 主要 是 由 上 海 市 政府 的 开放 
贡献 的 ,此 类 数据 主要 涉及 某 地 经 济 建设 和 工商 
贸 马 等 信息 ,涵盖 了 经 济 .工商 .统计 、 贸 易 .消费 ,经济 
息 等 方面 ,用 户 尤 其 是 企业 用 户 对 此 类 数据 的 
te 双 济 工商 类 数据 各 项 指标 都 稳 
天 位。 
CS 第 三 类 是 “交通 出 行 " 和 “医疗 健康 ”类 数据 ,它们 
在 第 5 步 时 与 医疗 健康 聚 成 一 类 , 二 者 之 间 的 系数 为 
© (次 /条 ) 


S00 
0 mm i Dw) [| 赎 


哈尔滨 ”济南 上 海 武汉 广州 贵阳 
单一 样本 开放 数据 平均 浏览 率 a 单一 样本 开放 数据 平均 下 载 率 
全 单一 样本 


5.187 ,它们 虽然 在 总 体 上 浏览 率 与 下 载 率 不 高 ,但 其 
整体 样本 开放 数据 平均 浏览 率 与 下 载 率 却 排 在 前 列 。 
交通 出 行 与 用 户 的 生活 联系 紧密 ,而 医疗 健康 更 是 全 
社会 关注 的 热点 ,当下 “互联 网 + ”交通 和 电子 医疗 的 
出 现 , 大 大 节约 了 用 户 的 时 间 , 便 利 了 公众 的 生活 。 

第 四 类 是 “民生 服务 ”"“ 能 源 环境 "“ 政府 机 构 与 社 
会 团体 ”和 “公共 安全 ”类 数据 ,它们 的 4 项 指标 均 为 
负 , 且 低 于 平均 值 。 这 一 类 数据 的 利用 相对 不 高 ,用 户 
对 能 源 环境 、 公 共 安 全 等 社会 治理 领域 的 问题 目前 关 
注 还 不 太 多 ,与 用 户 意识 .需求 的 紧急 性 等 因素 有 关 。 
3.2 ”区 域 视角 下 政府 开放 数据 利用 现状 

本 节 从 浏览 率 (bc,/BC)\ 下 载 率 (de,/DC) 及 其 对 
比分 析 三 方面 出 发 ,首先 统计 了 各 地 区 的 浏览 量 (bc;) 
和 下 载 量 (dc,) ,如 图 7 所 示 ; 同 时 绘制 了 单一 样本 开 
放 数 据 平均 浏览 率 ( bce/nc;) 和 下 载 率 (de;/nc;) 及 整体 


样本 开放 数据 平均 浏 览 率 (2 和 及 下 载 率 


dec, dc,、,,、 
(一 /i_ 一) 统计 图 , 见 图 8。 
nc; nc; 


贵阳 EE 
广州 国 
式 汉 国有 
i 
济南 | 
哈尔滨 图 
0 500000 ”1000000 1500000 2000000 2500000 3000000 3500000 
国 浏览 量 。” 国 下 载 量 


图 7 各 地 区 整 浏览 量 和 下 载 量 


0 一 一 Ce 
哈尔滨 济南 上 海 武汉 广州 贵阳 
下 整体 样本 开放 数据 平均 浏览 率 四 整体 样本 开放 数据 平均 下 载 率 
整 体 样本 


图 8 各 地 区 单一 (整体 ) 样本 开放 数据 平均 浏览 率 和 下 载 率 


3.2.1 区 域 视角 下 开放 数据 浏览 率 ” 同 主题 视角 下 
开放 数据 的 浏览 率 一 样 ,将 各 区 域 的 浏览 率 折线 图 与 
散 点 图 绘制 在 一 起 ,如 图 9 所 示 , 便 于 观察 各 地 区 开放 
数据 的 关注 程度 与 状况 。 其 中 ,X 轴 代 表 6 个 城市 ,也 
Be (i=l 2 6)0 

结合 图 8(b) 和 图 9 可 知 ,不 论 是 各 区 域 浏览 率 还 
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是 其 整体 样本 的 平均 浏览 率 , 上 海 和 贵阳 都 是 表现 最 
好 的 城市 。 以 上 海 为 例 , 其 数据 浏览 率 是 济南 的 
166. 883 倍 ,同时 其 整体 样本 的 平均 浏览 率 也 达到 
0.63, 远 高 于 平均 值 (0. 1667 ) ;而 济南 正好 相反 ,这 两 

项 指标 均 排 在 末尾 ,其 余 各 地 排名 稍 有 变化 。 此 外 ,上 
海 和 贵阳 两 地 开放 的 交通 出 行 主题 数据 的 浏览 率 之 和 


段 竞 清 ， 邹 雪 


婷 , 何 思 坷 . 主题 与 区 域 视 角 下 我 国 城市 政府 开放 数据 利用 现状 分 析 [J] . 


全 拓 旨 天 
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和 载 率 
加 入 全 赣 体 下 载 率 
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哈尔滨 ”济南 。。 上 海 武汉 广州 贵阳 10 ”区 域 视角 下 开放 数据 浏览 率 折线 图 和 散 点 图 
T™ 区 域 
> 它 与 最 低 的 济南 相差 136 倍 之 多 ;此 外 ,上 海 除 社保 就 
9 可 数据 浏览 点 i 
CE 罗 拓 下 作 本 生机 汪汪 的 网 和 机 交 业 外 的 其 他 9 个 主题 数据 均 拥 有 最 高 下 载 率 , 目 全 都 超 


旧名 地 交通 出 行 类 数据 总 浏览 率 的 89.3% 。 

三 此 外 ,结合 浏览 率 散 点 图 可 知 ,上 海 和 中 贵阳 不 仅 在 
整 做 上 开放 数据 浏览 率 高 ,其 散 点 图 的 跨度 也 较 大 ,其 
| 浏览 率 落 在 平均 值 (1.67) 以 上 的 数据 量 较 多 ;除了 
二 策 和 贵阳 以 外 ,其 余 城 市 浏览 率 排 名 依次 是 武汉 . 广 
州 E 哈 尔 滨 、 济 南 ,其 中 ,哈尔滨 虽然 整体 浏览 率 不 高 ， 
位 应 的 散 点 图 跨度 较 大 , 且 其 政府 数据 开放 平台 上 
在 八 相 当 数 量 的 浏览 率 高 于 平均 值 的 数据 。 

3235@2 ”区 域 视角 下 开放 数据 的 下 载 率 ”分 析 各 区 域 
开 堪 数据 的 下 载 率 有 利于 分 析 用 户 对 各 城市 开放 数据 
的 利用 程度 。 各 区 域 下 载 率 的 折线 图 与 散 点 图 见 图 10。 
CD 由 图 8 和 图 10 可 知 , 上 海 和 贵阳 分 别 作 为 一 个 整 


过 平均 值 ( 约 0.167) ,其 中 教育 科技 的 下 载 率 更 是 高 达 
0.798。 但 同时 也 有 城市 的 开放 数据 下 载 率 较 低 ,如 武汉 
的 开放 数据 在 各 项 下 载 率 的 指标 上 均 排 名 末尾 。 

结合 各 城市 开放 数据 的 散 点 图 可 知 , 同 各 城市 开 
放 数 据 浏 览 率 一 样 ,下 载 率 高 的 城市 ,其 散 点 图 的 跨度 
也 更 大 ;反之 ,整体 下 载 率 低 的 城市 ,其 下 载 率 跨度 相 
对 来 说 较 小 ,但 这 并 不 代表 个 各 城市 开放 数据 浏览 率 
与 下 载 率 的 变化 呈正 比 。 

3.3.3 区域 视角 下 开放 数据 的 利用 现状 为 了 进 一 
步 揭示 政府 开放 数据 在 区 域 视 角 下 的 利用 现状 ,结合 
浏览 率 等 4 个 指标 ,采用 层次 聚 类 法 对 各 区 域 开 放 数 
据 的 利用 状况 做 聚 类 分 析 。 其 中 ,个 体 距离 采用 平方 


体 ,其 下 载 率 较 高 ,同时 其 样本 的 平均 下 载 率 也 占据 了 
较 大 优势 ,例如 上 海 作为 开放 数据 下 载 率 最 高 的 城市 ， 


案例 
3 6 4 和 5 1 


上 海 3 


区 域 视 角 下 开放 数据 聚 类 分 析 冰 柱 图 和 树 状 图 


欧式 距离 ,类 间距 离 采用 平均 组 间 联 接 ,最 终 聚 类 结果 
的 冰 柱 图 和 树 状 图 如 图 11 所 示 : 


使 用 平均 联接 ( 组 间 ) 的 树 状 图 
重新 调整 距离 聚 类 合并 


0 和 了 雹 20 25 
1 上 1 
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由 于 区 域 研究 样本 较 少 ,因此 直接 采用 观察 法 对 
其 聚 类 数目 进行 划分 。 据 冰 柱 图 可 知 , 当 聚 成 4 类 时 ， 
哈尔滨 和 广州 为 一 类 济南 和 武汉 为 一 类 ,贵阳 和 上 海 
分 别 单独 素 成 一 类 ; 当 聚 成 3 类 时 ,哈尔滨 ,广州 .济南 
和 武汉 为 一 类 ,贵阳 和 上 海 分 别 单独 为 一 类 。 为 了 更 
为 细致 的 分 析 开 放 数 据 利用 的 分 布 研究 ,将 6 个 研究 
样本 到 成 4 类 。 
第 一 类 是 哈尔滨 和 广州 。 两 地 具有 较 高 的 相似 
性 ,首先 聚 为 一 类 ,系数 仅 为 0.043 。 在 4 个 衡量 指标 
上 ,哈尔滨 和 广州 的 指标 排名 相差 不 大 , 紧 跟 在 上 海 和 
贵阳 之 后 ,各 项 指标 大 多 处 于 中 间 位 置 。 同 时 ,哈尔滨 
和 广州 开放 数据 的 相似 性 还 体现 在 其 数据 开放 的 起 始 
时 间 、 开 放 数据 的 数量 ,格式 等 方面 ,虽然 起 步 较 晚 ,但 
其 政府 数据 的 关注 度 和 被 利用 情况 尚 可 。 
过 第 二 类 是 济南 和 武汉 。 这 两 个 城市 之 间 的 系数 为 
,相似 度 较 高 。 武 汉 虽然 比 济南 早 2 年 开放 数 
放 数据 集 总 量 大 ,有 较 高 的 浏览 率 ,但 由 于 受到 
释 格 式 等 因素 的 影响 ,武汉 开放 数据 的 整体 和 平均 
玫 荔 率 都 很 低 ; 同样 ,济南 开放 数据 起 步 晚 , 数 据 集 数 
晤 多 ,在 4 项 指标 中 的 排名 都 十 分 靠 后 。 因 此 与 武汉 
的 闫 距 并 不 明显 ,这 两 地 聚 为 一 类 。 

@ 第 三 类 是 贵阳 。 贵 阳 虽然 开放 数据 起 步 较 晚 ,但 
蕉 从 足 一 年 的 时 间 内 就 取得 数据 开放 指数 排名 第 二 的 
成 线 ” 。 除 整体 样本 的 平均 浏览 率 外 ,贵阳 开放 数据 
的 翘 余 各 项 指标 均 超过 平均 值 , 此 外 ,其 开放 的 9 个 主 
题 产 据 集 ( 民生 服务 主题 暂 缺 ) 的 浏览 量 均 稳 居 前 三 ， 
贵 阻 开放 数据 的 关注 程度 和 利用 程度 仅 次 于 上 海 。 
GO 第 四 类 是 上 海 。 上 海 开放 数据 的 浏览 率 和 下 载 率 
均 在 首位 ,自从 2012 年 开放 数据 以 来 ,上 海通 过 政府 
引导 、 提 高 数据 质量 .重视 用 户 参 与 和 数据 创新 等 方 
式 ,使 得 其 在 各 地 方 政府 开放 数据 中 稳 居 第 一 梯 
队 251 ;在 本 研究 中 ,上 海 的 开放 数据 在 浏览 率 . 下 载 率 
等 4 个 指标 中 均 排名 第 一 ,其 中 经 济 工商 类 数据 的 音 
一 平均 下 载 率 高 达 352 次 /条 ( 约 数 ) ,是 其 他 类 数据 的 
2 倍 之 多 。 


浏览 率 和 下 载 率 的 相关 性 分 析 
4.1 开放 数据 整体 的 浏览 率 与 下 载 率 的 相关 性 分 析 
浏览 率 与 下 载 率 分 别 代表 用 户 关注 程度 与 数据 利 
用 程度 , 探 明 二 者 之 间 的 关系 有 利于 帮助 提高 数据 的 
利用 效率 。 首 先 在 不 区 分 研究 视角 的 条 件 下 用 绘制 
了 浏览 率 与 下 载 率 的 散 点 图 , 见 图 12。 


如 图 12 所 示 ,代表 浏览 率 与 下 载 率 的 散 点 大 量 的 
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下 载 率 (次 条 ) 


= T V T 
0.06 0.08 -0.10 0.12 
浏览 率 (次 /条 ) 


图 12 浏览 率 与 下 载 率 的 散 点 图 


分 布 在 趋势 线 两 侧 , 仅 有 部 分 数据 呈现 出 浏览 率 越 高 、 
下 载 率 越 高 的 趋势 。 为 了 进一步 分 析 浏 览 率 与 下 载 率 
之 间 的 关系 ,运用 R 回归 模型 拟 合 上 述 数据 ,首先 运用 
线性 最 小 二 乘法 做 回归 分 析 , 回 归结 果 显 示 回 归 系 数 
p 值 (0.166, <2e -16) 很 小 ,非常 显著 的 关 0; *** 也 表 
示 显 著 程 度 非常 显著 。 同 时 下 统计 量 =3799 ,p-value: 
< 2.2e -16 远 小 于 0.05 ,表示 整个 回归 模型 显著 , 适 
合 估计 download_rate 变量 。 拟 合 优 度 R = 0.405 8 < 
0.5, 表示 拟 合 程度 较 弱 ,在 此 基础 上 绘制 回归 诊断 图 。 
图 13 中 的 4 张 诊断 图 分 别 是 (1) 残 差 与 拟 合 值 
图 ,图 中 无 明显 曲线 关系 ;(2) 残 差 Q-Q 图 ,说 明 实 验 
数据 不 服从 正 态 分 布 ;(3 ) 标准 化 残 差 与 拟 合 值 图 , 纵 
坐标 是 标准 化 残 差 的 平方 根 , 残 差 越 大 ,点 的 位 置 越 
高 ,模型 残 差 等 方差 ;(4) 残 差 与 杠杆 图 ,鉴别 出 了 离 
群 点 、 高 杠杆 点 、 强 影响 点 。 

综 上 所 述 ,浏览 率 与 下 载 率 在 整体 上 虽然 存在 一 
定 相关 性 ,但 相关 程度 较 弱 。 
4.2 ”主题 视角 下 开放 数据 浏览 率 与 下 载 率 的 相关 性 
分 析 

开放 数据 浏览 率 与 下 载 率 在 整体 上 存在 相关 性 ， 
但 并 不 能 说 明 各 主题 开放 数据 浏览 率 与 下 载 率 的 关联 
程度 。 因 此 ,分 主题 分 别 对 10 个 主题 浏览 率 与 下 载 率 
做 回归 分 析 得 到 表 3 ,同时 绘制 各 主题 开放 数据 浏览 
率 与 下 载 率 的 散 点 图 ,如 图 14 所 示 , 以 分 析 其 在 不 同 
主题 下 的 变化 规律 。 

结合 表 3 和 图 14,R? 值 越 接近 于 1 ,表明 浏览 率 和 
下 载 率 相关 性 越 强 , 也 即 开放 数据 的 浏览 率 越 高 ,下 载 
率 也 越 高 ,同时 也 表明 数据 关注 程度 与 利用 程度 关联 
性 越 大 。 


段 兑 清 ， 印 雪 婷 ， 何 思 奇 . 主题 与 区 域 视角 下 我 国 城市 政府 开放 数据 利用 现状 分 析 [ 可 . 图 书 情 #GDInR 全 拆 
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主题 视角 下 开放 数据 浏览 率 与 下 载 率 的 相关 性 分 析 表 4 区域 视 角 下 浏览 率 与 下 载 率 相关 性 分 析 
人 城市 R2 主题 R2 城市 R2 城市 R2 
CC 的 育 科 技 0.863 3 交通 出 行 0.594 6 济南 0.780 3 哈尔滨 0.443 1 
《一 民生 服务 0.830 5 文体 休闲 0.505 6 上 海 0.753 4 武汉 0.318 4 
双 济 工商 0.704 4 公共 安全 0.3049 广州 0.625 1 贵阳 0.153 7 
E 疗 健康 0.629 社保 就 业 0.015 28 
4 区 域 视 6 个 i py 
和 1 和 由 表 4 可 知 ,区 域 视角 下 6 个 城市 开放 数据 的 浏 


全 在 主题 视角 下 ,共有 8 个 大 类 的 浏览 率 与 下 载 率 
马 喝 出 不 同 程度 的 正 相关 关系 。 首 先 ,教育 科技 和 民 
生 由 务 主题 的 浏览 率 和 下 载 率 呈现 较 强 的 正 线性 关 


系 5 其 R 系数 分 别 表示 回归 关系 能 解释 因 变 量 
36553% 和 和 83.05% 的 变异 ,回归 效果 较 好 ,这 其 中 , 教 
育 科 技 类 数据 的 浏览 率 与 下 载 率 基本 成 正比 , 且 其 散 
点 图 分 布 较为 均匀 ;其 次 ,经 济 工商 的 回归 相关 系数 为 
0.704 4; 此 外 ,社保 就 业 和 能 源 环 境 的 R 分 别 均 为 
0.015 28 ,表明 这 两 个 主题 的 数据 浏览 率 与 下 载 率 不 
相关 。 

因此 ,主题 视角 下 浏览 率 与 下 载 率 关 联 程度 由 强 
到 弱 : 教 育 科 技 > 民生 服务 > 经 济 工商 > 医疗 健康 > 
政府 机 构 与 社会 团体 > 交通 出 行 > 文体 休闲 > 公共 安 
全 > 社保 就 业 = 能 源 环境 。 
4.3 ”区域 视角 下 开放 数据 浏览 率 与 下 载 率 的 相关 性 
分 析 

为 了 统计 各 区 域 开 放 数 据 浏览 率 与 下 载 率 的 关联 
程度 ,分 区 域 对 6 个 城市 开放 数据 浏览 率 与 下 载 率 做 
回归 分 析 ,分 析 结 果 如 表 4 所 示 ,与 此 同时 绘制 6 个 城 
市 开放 数据 的 散 点 图 ,如 图 15 所 示 。 


览 率 与 下 载 率 呈正 相关 ,但 其 相关 性 呈现 出 一 定 的 差 
异性 。 

具体 来 说 ,济南 开放 数据 的 浏览 率 和 下 载 率 呈现 
较 强 的 正 线性 关系 ,R 系数 为 0.780 3, 这 在 区 域 浏 览 
率 与 下 载 率 散 点 图 中 也 可 以 得 到 验证 ;上 海 紧 跟 其 后 ， 
其 数据 的 下 载 率 与 浏览 率 的 回归 相关 系数 为 0.753 4; 
此 外 ,武汉 和 贵阳 相关 系数 的 平方 分 别 为 0.318 3、 
0.153 7 ,表示 回 归 关 系 仅 能 解释 因 变 量 31. 83% 、 
15.37% 的 变异 ,回归 效果 较 差 ,因此 武汉 和 贵阳 开放 
数据 的 浏览 率 与 下 载 率 的 关联 程度 最 弱 。 总 之 ,区 域 
视角 下 浏览 率 与 下 载 率 关联 程度 由 强 到 弱 为 :济南 > 
上 海 > 广州 > 哈尔滨 > 武汉 > 贵阳 。 


5 ”结论 与 讨论 


(1) 通 过 聚 类 分 析 , 得 出 以 下 结论 。 第 一 ,从 主题 
视角 看 ,用 户 对 经 济 .民生 等 与 日 常生 活 联系 密切 的 领 
域 关注 更 高 ,10 个 不 同 主题 数据 的 利用 现状 呈现 出 一 
定 的 差异 性 ,将 10 个 大 类 的 数据 根据 相似 性 划分 成 了 
4 类 :文体 休闲 、 社 保 就 业 和 教育 科技 是 第 一 类 ;经 济 
工商 单独 成 第 二 类 ;交通 出 行 和 医疗 健康 是 第 三 类 ; 民 
生 服 务 ,能源 环 境 政府 机 构 与 社会 团体 和 公共 安全 至 
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图 15 区 域 视角 下 开放 数据 浏览 率 与 下 载 率 散 点 图 


成 第 四 类 。 第 二 ,从 区 域 视 角 看 ,不 同城 市 开放 数据 的 
利用 程度 不 同 ,呈现 出 明显 的 高 低 之 分 :哈尔滨 和 广州 
为 第 一 类 济南 和 武汉 是 第 二 类 贵阳 和 上 海 分 别 单独 
聚 成 第 三 类 和 第 四 类 。 

(2) 通 过 回归 分 析 发 现 开 放 数 据 浏 览 率 与 下 载 率 
之 间 的 变化 规律 ,用 以 探究 开放 数据 利用 情况 。 

志 首 先 ,在 整体 上 ,开放 数据 浏览 率 与 下 载 率 呈 弱 
相关 。 这 表明 在 10 大 主题 中 ,浏览 率 与 下 载 率 的 值 都 
较 高 的 情况 鲜 有 发 生 , 然 而 ,浏览 率 与 下 载 率 同 为 衡量 
用 户 对 开放 数据 利用 状况 的 重要 指标 ,二 者 呈 强 正 相 
关 且 其 值 同时 较 高 才 是 数据 利用 的 最 佳 状 态 ,因此 政 
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府 应 积极 采取 相关 措施 提高 浏览 率 和 下 载 率 的 水 平 。 

@) 其 次 ,在 主题 视角 下 ,教育 科技 .民生 服务 .经济 
工商 等 与 社会 民生 领域 相关 的 主题 利用 程度 较 高 ,其 
浏览 率 与 下 载 率 呈正 相关 。 这 几 类 数据 由 于 与 公众 日 
常生 活 联系 密切 ,受到 的 关注 度 自 然 更 高 ,在 “互联 网 
+ ”电子 政务 的 时 代 , 政 府 应 继续 利用 自身 优势 了 解 、 
分 析 并 最 大 限度 满足 用 户 需 求 ; 但 同时 社保 就 业 和 能 
源 环境 主题 浏览 率 与 下 载 率 不 相关 ,其 变化 趋势 呈 反 
向 发 展 ,其 他 大 多 主题 数据 呈 弱 相关 。 社 保 就 业 、 能 源 
环境 公共 安全 等 主题 同样 与 用 户 的 生活 息息相关 ,但 
其 利用 状况 并 不 理想 ,这 与 开放 数据 集 的 数量 ,用户 需 
求 等 因素 有 关 , 因 此 建议 详细 分 析 造 成 此 现象 的 原因 ， 
同时 加 强 开 放 数 据 的 宣传 与 引导 ,有 针对 性 的 改善 此 
类 数据 的 利用 状况 ;同时 ,主题 视角 下 开放 数据 的 整体 
特征 与 部 分 特征 具有 不 一 致 性 ,因此 在 改善 开放 数据 
整体 利用 状况 的 同时 ,还 应 注意 其 内 部 数据 的 增值 。 

@@ 最 后 ,在 区 域 视 角 下 ,济南 、 上 海 开 放 数 据 的 浏 
览 率 和 下 载 率 呈正 相关 ,其 中 上 海 开 放 数 据 利 用 度 排 
名 首位 ,济南 则 排 在 末 位 ,其 余 各 地 如 贵阳 ,虽然 开放 
数据 浏览 率 和 下 载 率 都 较 高 ,但 二 者 之 间 线 性 关系 较 
弱 ,我 国 各 城市 政府 开放 数据 的 利用 呈现 出 不 均衡 性 
的 特点 ;此 外 ,其 开放 数据 的 整体 特征 与 部 分 特征 大 体 
上 具有 一 致 性 。 开 放 数 据 利 用 的 不 均衡 性 受到 其 发 展 
进程 .公众 知晓 度 ,利用 环境 与 社会 经 济 发 展 水 平等 多 
因素 (影响 因素 将 在 另 文 分 析 ) 的 影响 ,因此 政府 应 具 
备 开放 的 思想 和 意识 ,加 快 数据 开放 的 步伐 ,提高 其 社 
会 知晓 度 ,在 提高 开放 数据 利用 率 的 同时 缩小 我 国 各 
城市 之 间 的 利用 差距 。 


6 不 足 及 展望 


本 文 从 微观 视角 出 发 ,选取 了 了 哈尔滨、 济南、 上 海 、 
武汉 广州 和 贵阳 6 地 政府 开放 的 部 分 数据 资源 作为 
研究 样本 ,在 归纳 分 类 的 基础 上 从 主题 和 区 域 视角 上 
计算 分 析 了 开放 数据 的 浏览 率 和 下 载 率 等 指标 , 进 一 
步 做 聚 类 分 析 与 相关 性 分 析 ,发 现在 不 同 主题 下 和 不 
同城 市 中 开放 数据 的 利用 现状 都 呈现 出 不 均衡 性 ,最 
后 提出 相关 建议 。 虽 然 对 开放 数据 的 利用 状况 的 衡量 
与 评价 尚未 有 统一 标准 , 仅 通 过 浏览 率 与 下 载 率 反 映 
其 利用 现状 具有 一 定 的 局 限 性 ,但 与 纯 定 性 分 析 或 宏 
观 分 析 的 研究 相 比 , 本 研究 以 开放 数据 本 吴 作 为 切 人 
点 ,通过 实时 数据 的 抓 取 与 定量 指标 的 计算 ,在 一 定 程 
度 上 增强 了 研究 的 说 服 力 和 可 信和 度 , 在 整体 上 能 为 促 
进 开放 数据 的 利用 提供 较 大 参考 。 
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段 竞 清 ， 印 雪 婷 ， 何 思 奇 . 主题 与 区 域 视角 下 我 国 城市 政府 开放 数据 利用 现状 分 析 [ 可 .图 局 6 佛 期 乔 
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同时 ,本 文 也 存在 一 些 不 足 。 首先, 由 于 未 做 全 样 
本 分 析 ,可 能 会 影响 分 析 的 全 面 性 和 科学 性 ;其 次 , 仅 
分 析 了 开放 数据 的 静态 利用 状况 ,尚未 在 动态 环境 下 
对 其 做 时 间 序 列 分 析 ; 最 后 ,未 能 深入 探究 影响 开放 数 
据 利 用 现状 的 因素 。 针 对 以 上 不 足 , 将 在 后 续 研 究 中 
做 进一步 探讨 。 总 体 上 ,本 研究 从 两 个 视角 分 别 通过 
浏览 率 、 下 载 率 等 指标 参数 的 计算 ,及 聚 类 和 相关 性 分 
析 ,对 开放 数据 利用 状态 揭示 具有 一 定 的 参考 意义 。 
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Abstract: [Purpose/significance | This paper aims to analyze the use status of urban government open data in Chi- 


na from the perspective of subject and region, and explore the linear relationship between the degree of attention and utili- 


zation of open data, so as to improve the efficiency of the use of open data by our government. [Method/process | It se- 
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lects six places such as Harbin, Jinan, Shanghai, Wuhan, Guangzhou and Guiyang as examples to conduct statistical 
comparative analysis, cluster analysis and regression analysis on multiple indicators such as browsing rate of the govern- 
ment open data to reveal the utilization status of China’ s urban open data under the thematic and regional perspectives, 
and to explore the linear relationship between browsing rate and download rate. [ Result/conclusion | The use of open da- 
ta by urban governments in China has the following characteristics: The overall open data browsing rate is weakly related to 
the download rate. From the perspective of the theme, educational technology, people’ s livelihood services, economic 
and industrial , and other topics related to the social and people’ s livelihood are highly utilized, and their browsing rate is 
positively correlated with the download rate; the overall characteristics of open data are inconsistent with some features. 
From a regional perspective, the browsing rate and download rate of Jinan and Shanghai are positively correlated. Among 
them, Shanghai ranks first in the use of open data, while Jinan ranks in the bottom. Guiyang’ s open data browsing rate 
and download rate are both high, but both are Weak correlation; the overall characteristics of open data and some features 
are generally consistent. 

utilization 


Keywords: open government data correlation analysis 


智库 能 力 与 新 型 智库 建设 
一 一 2018 第 三 届 新 型 智库 核心 能 力 建设 高 级 研修 班 通知 (第 二 轮 ) 


芒 贯 彻 党 的 “十 九 大 "关于 加 强 中 国 特色 新 型 智库 建设 的 指示 精神 ,加 强 中 国 特色 新 型 智库 核心 能 力 建设 ,推进 科学 决 
和 摔 . 民主 决策 ,推进 国家 治理 体系 和 治理 能 力 现代 化 ,增强 国家 软 实力 ,解决 新 型 智库 建设 理论 与 实践 发 展 中 所 面临 新 间 题 ， 
加 强 智库 实践 界 .学 术 界 与 决策 部 门 间 的 交流 与 研讨 ,促进 新 型 智库 发 展 ,中 国 科学 院 文献 情报 中 心 《 智 库 理 论 与 实践 》 编 辑 
部 绰 2018 年 11 月 29 -12 月 2 日 在 海南 海口 举办 “2018 第 三 届 新 型 智库 核心 能 力 建设 高 级 研修 班 ” 。 今 年 是 中 国 改革 开放 
403 周 年 。 为 此 ,研修 班 设 在 被 誉 为 “中 国 改革 智库 ”的 中 国 (海南 ) 改 革 发 展 研 究 院 ,实地 调研 和 学 习 该 院 在 影响 和 推动 海南 
第 国 改革 发 展 中 的 政策 研究 背景 .决策 影响 机 制 和 智库 建设 经 验 ,同时 邀请 国家 高 端 智 库 代 表 、 知 名 智库 学 者 以 及 党 政 言 
门 领导 和 一 线 智库 专家 ,围绕 “新 型 智库 核心 能 力 建 设 ” 主题 展开 专 深 讲解 和 互动 交流 。 研 修 班 面向 全 国 征文 ,优秀 论文 优先 
在 k 物 库 理 论 与 实践 》 上 发 表 。 诚 邀 参 会 ,欢迎 撰文 。 
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